《科学通报》对话姜世勃: 科学评价中的“因子现象”
用于评价科学期刊的“影响因子(Impact Factor, IF)”在创立之初旨在帮助科学家或图书馆员方便地检索和使用文献,但它的建立者Eugene Garfield却在一次报告上表示:“1955年我提出‘影响’一词的时候,并没想到有一天它会引发如此多争议。‘影响因子’就像核能一样,让人既爱又恨. 本期待它能起到更多的建设性作用,但我发现它很可能被滥用”。 事实上,影响因子的“蘑菇云”早已笼罩了科学共同体,为了获得基金支持或职位,科研人员、学者、研究生、甚至医生(特别是青年学者)都竭尽全力为在高影响因子期刊上发表文章,杂志编辑和出版商也不得不努力提高自己期刊的影响因子。最近,姜世勃等在The Scientist发表的“Opinion: the impact factor, re-envisioned”一文中对“影响因子现象”进行了分析,并对学术论文评价提出了一个新的指标因子(IDF)。《科学通报》就该文有关问题对话复旦大学姜世勃教授。
姜世勃,从事抗病毒(HIV、SARS-CoV、MERS-CoV、RSV、HPV、AIV、EBOV、ZIKV等)药物及疫苗研究30多年,已在美国和中国成功开发上市1个抗HIV和1个抗HPV的药物,获得18项美国专利和5项中国专利的授权。为The Lancet 的编辑顾问,Retrovirology, PLoS One, BBA Biomembranes, Microb Infect, Emerg Microb Infect等杂志的编委,曾为60多家英文杂志审稿。
● ● ●
《科学通报》:您是怎么看待“影响因子现象”的?
姜世勃: “影响因子”作为文献计量学中的一个指标参数, 却在岗位面试、职位提升和基金申请等重要的学术评估活动中(特别是在中国)被广泛地用于评价科研人员的学术水平以及他们所研究工作的学术价值。这种“越权执法”可谓是影响因子的“原罪”, 科学界对“影响因子”的抨击由来已久,但却从未停止。然而,我们总是习惯于批判“影响因子”, 但几乎没有探究过为何“使用一个评价期刊的指标去评价个体及个体研究”这样一个有明显逻辑漏洞且张冠李戴的使用方式究竟是如何形成的,并且如何席卷了整个科学界,而科学工作者正是世界上最尊重逻辑的一群人。有很多人致力于解决“因子”滥用的问题,但我想只有当我们认识到“因子现象”的成因,才能有的放矢地寻找解决这个问题的思路。
《科学通报》:是什么深层次原因造就了“影响因子现象”?
姜世勃: 这个现象有别于我们熟悉的描述客观的科学命题,里面有很强的人为因素,因此我尝试使用社会学的一些理论进行阐述,一家之言,供大家参考。
当一个科研工作者去应聘或者申请基金时,岗位或者基金的提供者需要根据现有的信息对申请者在未来可能达到的科研成就做出预测。然而我们知道,未来是充满变数的,要在这个变数的基础上给出“是或否”的选择,这就要求在研判时尽量消除变数。
如何消除变数呢? 我们熟知,基金提供者通常会组织专家评审,专家会通过申请者提交的材料,结合自身的专业知识和阅历评判申请者的科研水平及其研究计划的可行性,这是一种消除变数的过程。这种评价似乎非常合理且人性化,但需要指出这种评价方式有两个弊端。其一, 真正公正、专业的评判需要评审专家掌握申请者及其课题的完备信息。很显然, “申请者能否成长为科学家”或“一个颠覆性的科学发现”不可能在一次评审中就能简单地预见到。其二,这种方式无法完全避免情感和利益的影响,特别是当评审成员生活在一个“人情社会”中时,这种影响尤为显著。可以想象如果中国的高校在招生时完全摒弃高考分数而实行以面试为主的录取方式,那么有可能为“走后门”者提供了机会,而一些成绩优秀的寒门子弟有可能名落孙山。但使用高考分数线作为唯一的录取标准,一定会导致应试教育等问题。然而,这是目前在中国现有条件下能相对保证公平的方法。
在科研评审时,“影响因子”就相当于“高考分数”,成了一个相对地比较公平的评审标准。根据现行的科学论文的发表流程,期刊在决定是否发表某论文前已经依靠“同行评议系统(peer review system)”对作者的研究工作进行了深度的评估。同时,任何一个科学期刊经过长期的运作,其在科学界中必定拥有相应的定位和声誉,这是相对客观的。因此,基金提供者只需参考申请者已经在哪些期刊发表过文章,然后评估这些期刊的水平即可达到目的。即以相对客观的期刊评价为中介,间接地完成了对个人科研水平的评判。作为最具影响力的期刊评价指标,“影响因子”自然成为了最“合适”的载体,这是“影响因子现象”产生的本质。本来是个无奈之举,但为了立刻给出“是或否”的结论,这种评价方式也逐渐被科学界接受,并使我们很少再去探究“影响因子到底能不能代表个体的研究水平”这个问题。就像“高考分数”一样,虽然大家都知道一次考试并不能反映出一个考生的实际水平,但大多数考生和家长并没有提出质疑。或者像纸币的流通一样,几乎没有人会考虑它是否真正能与黄金等值,而大家却都在毫不犹豫地使用。
《科学通报》:科学界能不能摆脱因子的束缚?
姜世勃:坦白地讲,目前仍看不到可行的替代方案。如前所述,科学期刊作为连接个体研究者和科学界的重要桥梁,除了将对个体的评价转移为对期刊的评价的方式之外,我们目前找不出更好的评价媒介。这就是为什么即便存在大量质疑之声,“影响因子”仍一直被用于评价个体研究水平的原因,我们甚至可以推论,即便能够完全终止“影响因子”的使用,也一定会有X因子、Y因子、或Z因子来替代它。当然,对少数科研大咖们的评价可以游离于这个体系之外,因为他们通过长期的成果积累,已经在科学界中建立了针对个人的声誉和地位,这也解释了为何青年学者更需要高影响因子论文。对于科研评价,在全新的、革命性的系统性信任被建立之前(目前仍无法预见),我们所能做的就是不断地完善对期刊的评价系统,使其能更公正地评价期刊的水平,从而间接地反映出论文作者的学术水平。
《科学通报》:近年涌现出不少新的“因子”, 您是如何评价这些“因子”? 它们的优缺点是什么?
姜世勃:的确,一些新颖的期刊评价体系纷纷建立,试图弥补和挑战“影响因子”评价体系。较著名的有Google Scholar Metrics创立的h5指数,美国National Institutes of Health(NIH)建立的relative citation ratio (RCR)指标,爱思唯尔(Elsevier)出版集团最近推出的CS因子(CiteScore),以及Nature Publishing Group (NPG)新实行的多因子体系。
抛开前文所述的“越权执法”不提,影响因子(IF)在做其“本行”(即用于评价期刊)时也具有很明显的缺陷。IF的定义为某期刊前两年发表的论文在该报告年份中被引用的总次数除以该期刊在前两年内的发文总量。这个算法使得一些期刊(如CA: A Cancer Journal for Clinicians)中少数具有极高引用次数的论文对该期刊的IF的权重偏高,使其不能真实地反映出该期刊发表论文的平均水平。
h5指数定义为在过去5年中,某期刊至少有h5篇文章被引用超过h5次。例如,如果一个期刊在过去5年内共发表200篇论文,其中有50篇论文的引用次数不少于50次,那么该期刊的h5指数为50。h5指数可以看作是对各期刊相对高水平的论文群体进行比较,规避了“影响因子”会被少数高引论文影响的弊端,但期刊的发文量和涉及的学术领域广度对其结果影响巨大。一般来说,综合性并发文量高的期刊(如PLoS One)的h5值往往较高,而学科类的期刊h5值则会偏低。
RCR方法建立在对单篇文章的评价上,避免了“平均主义”,但是不免还是会碰到“个体信任”的问题。而且Max Planck协会的文献计量专家Lutz Bornmann在接受NPG采访时说由于RCR定义非常复杂,且限制性因素较多,因此他们还没有计划使用这个评价体系。
爱思唯尔的CS因子似乎比汤森路透影响因子(IF)更为公平一些,因为IF计算论文引用数(分子)时包括所有文章类型,但计算论文总数(分母)时不包括通信、评论、新闻等小型文章。所以,有些杂志通过刊登一些能被高引用的小型文章来提高其IF值。但CS因子计算论文总数(分母)时包括所有文章类型。IF计算是某期刊连续2年刊登的论文在第3年度的篇均引用次数,包括11000多种期刊;而CS因子是该期刊连续3年的论文在第4年度的篇均引用次数,包括22000多种期刊。但很多专家对CS因子的公平性也提出了质疑,因为根据CS因子,一些大家公认的高端期刊(如Nature,Science,the Lancet)的排名大幅下降。
包括NPG在内的很多出版机构纷纷建议采用多重指标因子评价期刊,此观点强调了多样性的重要,即多种不同的指标可以使评价结果更为可信。正如某学生的考试成绩一样,仅凭一次单科目考试的成绩很难客观评价该同学的总体学习水平,因此需要综合多科目考试的结果。就像是高考的分数线是基于多科目(语文、数学、外语、文综或理综)考分的总和。但多重指标因子评价体系会引入更多的新变量,大大地增加了评估的难度和复杂性。
《科学通报》:前一段时间, 我们报道了冯长根教授的“用学术影响力评价学术论文”的评价方法, 您如何看待?
姜世勃:对此我有所关注。冯先生的评价方法非常新颖,“F1”和“F2”双因子的互补使用明确了学术传承性,突出了某论文在某个研究领域学术链的位置。但是我认为仍有一些需要改进的地方。其一,该评价体系注重传承顺序,必须要设置“学术链的节点”,否则无法计算F因子,但对于的“节点”的定义还没有一套规范统一的方法;其二,不同的领域或同一学科的子领域不太容易进行横向比较;其三, 如前面讲的,双因子将引入新的变量,增加了评估的难度。
《科学通报》:在您看来, 下一代评价因子应该怎样发展?
姜世勃:通过以上分析,我们可以得出一个结论,对期刊和论文的评估需要多样性的指标因子,但是这些指标因子必须以某种形式整合在一起,形成更为真实客观的评价标准。鉴于此,我们尝试对现有的指标进行整合和优化,并抛砖引玉地提出了“指标因子(Indicator factor, IDF)”。
IDF=IF×h5/5(数值5: h5计算过程中涉及的时间为5年)
为了评估IDF的有效性,我们统计了30种期刊在2015年的IF和h5,并以此计算出各自的IDF值。这30种期刊影响因子自3至100不等,涉及的学科领域及出版商也不同。详细的评估结果可见姜世勃等发表于2016年11月18日的The Scientists文章。该文中,我们以CA: A Cancer Journal for Clinicians和PLoS One为例,证明IDF的评估方式更为公平或更为合理。此外,IDF弥补了IF和h5各自的缺点。首先,与IF不同,少数超高被引次数的文章对IDF的影响甚微;其次,IDF更注重大多数文章的表现,避免了期刊总发文量对其数值的影响。另外,IF和h5可以分别通过Journal of Citation Reports和Google Scholar查询得到,算法简单,无需再建立新的、繁琐的统计分析系统。因此,我们提出将IDF作为一种更为合理的新指标,用于对期刊的评估。当然,这只是我们对因子整合策略的一种先行尝试,还需要对全部已发行期刊的IDF进行测算后以确定IDF是否为切实有效的评估方法。
相关阅读: